

\_,\_.



512 x 64 W Q L(Sentence Length) Min L=216자리/double Max L = 256 D model = 512 L x 512 L x 64 N heads = 8 D model/n heads = 64 Input encoder 8자리/single 9자리/single

## <단점>

- 1. 너무 병렬구조
- 2. 곱셈: 4clk / 덧셈: 36clk로 지연시간 차이 너무 큼
- → Critical Path: Adder Tree Module
- 3. 곱셈도 Adder구조 포함이므로 Adder 구조가 너무 많음
- 4. 곱셈에서 최대 33MB의 Register가 필요하므로 용량이 너무 큼
- → SRAM을 사용해야 하지만 그래도 무거움

## <개선방안>

- 1. 곱셈과 덧셈연산에서 clk 비슷하게 맞추기
- 2. Input 행렬을 column 기준으로 잘라서 1cycle 연산이 끝났을 때 Q행렬의 모든 요소에 값이 하나씩 채워지게 하기
- 3. Q 행렬 요소에 adress를 부여하여 연산값이 주소를 보고 찾아갈 수 있게 하여 메모리 부담 줄이기
- 4. 덧셈은 한 번 더하는 구조에서 끝나게 설계
- 5. Input 행렬 불러오는 방식도 고안하기



